Máster en Data Science para finanzas

Práctica proyecto de Machine Learning

Autores:

Enlaces a GIT :

-
-

Nuestros datos :

Nos enfrentamos a la base de datos de accidentes de tráfico ocurridos en Canadá entre los años 1999 y 2014, del informe "Canadian Motor Vehicle Traffic Collision Statistics", elaborada en cooperación con el gobierno de Canadá.
Esta tabla está compuesta de 5,860,405 filas y 22 columnas. Cada fila representa una persona involucrada en un accidente de tráfico.

Objetivos del trabajo:

El objectivo del trabajo será crear un modelo de Machine Learning que, habiendo una persona implicada en un accidente, cuál es la probabilidad de que al menos haya una víctima mortal en dicho accidente.

Diccionario de datos:

Todas las columnas incluyen valores como QQ, UU, XX, NN, UUUU, o XXXX. Las Us hacen referencia a desconocidos. Las X, a datos que no han sido aportados por la jurisdicción y las N a elementos no aplicables.

image-2.png

EDA:

Visualizamos el número de accidentes mortales/no mortales así como sus porcentajes:

Workflow:

1. Evolución en el tiempo

2. Día de la semana

3. Hora del día

4. Edad y día de la semana

5. Carretera

6. Sexo y tipo de vehículo

7. Configuración del accidente

8. Condiciones climatológicas

9. Medidas de seguridad utilizadas

10. Número total de fallecidos en el período, sexo y períodos vacacionales.

1. Evolución en el tiempo:

Conclusiones

2. Día de la semana:

Conclusiones:

  1. El día de la semana con mayor número de personas involucradas en accidentes es el viernes, que representa un total del 17 % de los accidentes.
  2. La mayor mortalidad se da los fines de semana, viernes, sábados y domingos. Especialmente el sábado, que se lleva un 18.1 % de los accidentes mortales.
  3. Respecto al número de accidentes, es bastante similar durante todos los días de la semana, aunque como ya hemos dicho, con mayor tasa de mortalidad los fines de semana.
  4. El número de desconocidos es mínimo, encontrándonos solo con 13 accidentes mortales. Por este motivo, nos tomamos la libertad de imputar esos valores desconocidos por domingos, ya que la diferencia no será significativa.

3. Hora del día:

Conclusiones:

  1. Analizando los accidentes por hora hemos visto que el mayor número de accidentes se dan a entre las 3 y las 5 de la tarde. Solo en estas tres horas del día se han dado el 25 % de accidentes.

  2. Si hablamos de muertes en términos globales, en el gráfico de abajo veremos que la mayoría de víctimas mortales se producen las horas comprendidas entre las 15 y las 18 de la tarde, lo que es lógico teniendo en cuenta el punto anterior.

  3. Analizando en general el hecho de que se porduzca un accidente con víctimas mortales, es igualmente más elevado entre las 15 y las 18 en términos globales. Sin embargo, en términos de porcentajes, vemos que son mucho más letales los accidentes que se producen en la madrugada a partir de las 00 y hasta las 6, donde la tasa de mortalidad se dispara hasta alcanzar máximos del 4.2 %.

  4. Entre las 00 y las 5 de la mañana, pese a que el porcentaje de accidentes es bajo,

4. Edad y día de la semana:

Conclusiones:

Comprobamos que nos encontramos con la mayoría de personas que han provocado accidentes mortales se encuentran en el rango de edad de entre 22 y 56 años. Nos encontramos con mímimos de 1 año hasta máximos de 97 años. Los outliers que nos aparecen son los que hemos imputado a los valores desconocidos.

Relación lineal edad:

Edad y día de la semana:

Accidentes totales:

Representaciones gráficas:

Accidentes mortales:

Represenatción gráfica:

5. Tipo de vía

Conclusiones:

6. Sexo y tipo de vehículo:

Conclusiones

Sexo y tipo de vehículo:

Total de accidentes dependiendo del vehículo y el sexo:

Total de accidentes mortales dependiendo del sexo y tipo de vehículo:

Ajustes y representaciones gráficas:

7. Configuración del accidente:

8. Condiciones climatológicas.

Temperatura media anual en Canadá: Tiempo en Canadá

Horas medias anuales de luz en Canadá:

image.png

Precipitaciones medias en Canadá:

image.png

Conclusiones:

Representaciones gráficas:

9. Medidas de seguridad utilizadas:

Conclusiones

10. Número total de fallecidos en el período, sexo y períodos vacacionales.

La variable P_isev nos dice si esa persona murió o no en el período posterior al accidente. Esta variable la hemos descartado en nuestro modelo, puesto que es un dato que se desconoce a la hora del accidente. No obstante, queríamos dar una pincelada para analizar el total de fallecidos.

Comprobamos que la tendencia se comporta exactamente igual que la de accidentes en el primer apartado de este trabajo. Por lo tanto, es evidente que existe una correlación positiva entre a mayor número de accidentes mayor fallecimientos, vamos a comprobarlo: